                                 Overview

A summary in English follows below

Nordic Words (Nordiska ord) påbörjades hösten 1996 som ett delprojekt
inom Projekt Runeberg. Det drevs aktivt under 1997 av Anders Brun, men
sedan hände inte så mycket. Avsikten var att sammanställa och publicera
användbara, kostnadsfria och fritt tillgängliga ordlistor på de
nordiska språken, i första hand för underlätta stavningskontroll.
Diskussionen började i den svenska Usenet nyhetsgruppen
swnet.org.skolverket.skol-net (sök i Google Groups).

Under flera år (cirka 1997-2004) utgjorde webbplatsen www.speling.org
en samlingsplats för stavningsordlistor på de skandinaviska språken,
under ledning av Jacob Sparre från Skåne-Sjælland Linux Users Group
(SSLUG). Ordlistorna har utvecklats i symbios med olika fria
programvaror för stavningskontroll: spell (UNIX-klassiker), ispell
(ursprungligen för PDP-10, 1971), GNU Aspell och Pspell (båda av Kevin
Atkinson, sedan april 2000), MySpell (Kevin Hendricks), Hunspell
(Németh László, sedan 2005), som i sin tur ligger till grund för
stavningskontrollen i olika tillämpningsprogram som GNU Emacs,
OpenOffice.org, Abiword och webbläsare som Opera och Mozilla Firefox.
Den svenska ordlistan till ispell, som 1996-1997 skapades av Göran
Andersson, underhålls sedan 2003 åter av honom på adressen DSSO.se.

Till utvecklingen kommer Wikipedia (grundad 2001) med sidoprojektet
Wiktionary, där man hittar definitioner av alla tänkbara termer på
olika språk, men också en stor sökbar textmassa med exempel på ordens
användning. Vidareutveckling av språkstödet inom OpenOffice.org innebär
att även grammatikkontroll och synonymordbok behöver anpassas till
olika språk. För detta krävs ett underlag som ännu (2006) saknas på
svenska. För flera andra språk, men inte de skandinaviska, finns
omfattande översättningsordlistor, till exempel inom projektet
Freedict.org.

Inom Projekt Runeberg har ordlistor sammanställts för hjälp vid
OCR-tolkning av inscannade boksidor. Dessa omfattar äldre
stavningsvarianter (gammalstafning) på svenska och danska/norska.

OCR-ordlistor till ABBYY FineReader

Dessa ordlistor kompletterar de som levereras med OCR-programmet ABBYY
FineReader Professional version 6.0, speciellt vad gäller
stavningsvarianter före år 1900, som "maade", "Kjøbenhavn", "hvarför"
och "derför". Ordlistorna har tränats vid OCR-tolkning av Projekt
Runebergs inscannade verk under 2003 och 2004. Formatet PMD är Portable
Morphological Dictionary. Inga garantier ges för att alla orden är
korrekta eller för att ordlistorna skulle vara fullständiga eller ens
lämpliga för något syfte. Men den som har behov, kan ju ladda hem
listorna och prova. Listorna omfattas inte av upphovsrätt. De får
kopieras fritt.
  * Danska (TXT), danska (PMD), 12958 ord
  * Svenska (TXT), svenska (PMD), 46073 ord

Fraktur-font för ABBYY FineReader (på prov):
  * fraktur.ptn, 8,5 megabytes

Ordlistor

Alla ordlistor följer samma enkla standard. Orden är sorterade efter
bokstavsordning, ett ord per rad. Det teckensnitt som används är
ISO-8859-1 (ISO-Latin1). Tecknet för ny rad är 0x0a.

Ordfrekvenser från Projekt Runeberg
  * Frekvens 20070122, baserat på Projekt Runebergs delvis
    korrekturlästa OCR-text, enbart norska verk.

Lars Aronssons svenska ordlista
  * ss100.txt, 221.599 svenska ord (december 2006)

Ordlistor donerade av Posten AB
  * Svenska gatunamn och utdelningsadresser (2.6 Mbyte)
  * Svenska ortsnamn (14 kbyte)

Niklas Frykholms ordlistor
  * Ordlista med rättstavade ord
  * Ordlista med vanliga felstavningar

Ord insamlade från nyhetsgrupperna swnet.*
  * 20000 ord som inte finns i Niklas ordlista. Kollad mha Stava.
    Innehåller en del skräpord (skicka gärna in rättelser).
  * 120000 ord från swnet samt från Niklas ordlista, filtrerade genom
    Stava.

Udda ordlistor
  * Lista med ord som förblir giltiga ord även om man vänder dem
    bakofram.

Mjukvara

  * Presentation av Stava (Unix)
  * Presentation av Excalibur (Mac)

Planerna i stort (från 1996)

Insamlandet av nya ord kommer till största delen ske automatiskt. Dels
kommer valda delar av webben att dammsugas, i jakten på nya svenska ord
att som ännu inte finns i vår ordlista. Dels hoppas vi på samarbete med
tidningar och andra, som genom åren byggt upp stora textdatabaser av
hög kvalité. Sist men inte minst kommer det också vara möjligt att
manuellt komplettera ordlistan med nya ord.

Att ord som läggs till ordlistan är rättstavade, är ett absolut krav.
Datorprogram kan göra intelligenta gissningar om huruvida ord är
felstavade eller inte, men i slutändan måste människor kontrollera att
gissningarna verkligen stämmer. Det är också viktigt att alla
böjningsformer av ord finns med i listan.

Det krävs också en viss klassificering av ord, innan de läggs in i
ordlistan. Vi vill undvika att fackuttryck, slang och egennamn hamnar i
en och samma lista, utan att det går att skilja dem åt. Dessutom finns
planer på att man ska kunna lagra t.ex. förklaringar och synonymer till
ord. Inte heller detta arbete kan ske automatiskt, utan måste utföras
manuellt.

Det är också önskvärt att skilja på hur ord stavas i modern svenska,
och på hur de har stavats förr i tiden. Lisa Hallingström har sedan
tidigare arbetat med att framställa en ordlista som ska underlätta
rättstavning av projekt Runebergs texter. Detta har resulterat i en
ordlista på ca 20000 ord som är klassificerade efter tidsperiod.

Arbetet är att verifiera nya ord, klassificera och manuellt addera nya
ord till ordlistan, är ett tidsödande arbete - vi skulle aldrig klara
av att utföra allt arbete själva. Därför har vi tänkt skapa ett
gränssnitt mot WWW, så att vem som helst ska kunna medverka i arbetet
att förbättra ordlistan.

Vår förhoppning är att många språkintresserade svenskar kommer hjälpa
oss med projektet. Tillsammans skapar vi en ny svensk ordlista.

Summary in English

Nordic Words is started in the autumn of 1996 as a subproject to
Project Runeberg, working to compile and publish useful, free of cost,
public domain spelling dictonaries for the Nordic languages, primarily
Swedish. The subproject was actively maintained by Anders Brun during
1997, but not much has happened since.

                 Presentation av Stava (Unix) (juni 1997)

Presentation av Stava (Unix)

skriven av Viggo Kann

Stava är ett program som stavningskontrollerar en svensk text.
Programmet delar upp texten i ord och slår upp varje ord i en ordlista
med 200000 ord. Ordlistan är kodad som ett bloomfilter vilket gör att
uppslagning går mycket snabbt men det är omöjligt att återvinna
ordlistan i klartext.

Stava har utvecklats av Viggo Kann och Joachim Hollman. Version 1.8 av
Stava är fri för icke-kommersiell användning.

Det finns en nyare version av Stava som utvecklats inom
forskningsprojektet Algoritmer för svenska språkverktyg vid Nada , KTH.
Det är endast en forskningsprodukt och är inte tillgängligt för
användning utanför KTH. Den som vill testa den nya versionen kan dock
göra det i www under adressen http://www.nada.kth.se/stava/.

             Presentation av Excalibur (Mac) (december 1997)

Presentation av Excalibur (Mac)

skriven av Tomas.Risberg@swipnet.se

Excalibur är ett rättstavningsprogram som kan användas i alla
textbehandlande program för Macintosh. Det passar till exempel utmärkt
för att rättstava inlägg i nyhetsgrupper eller för att rätta sin
elektroniska post.

Excalibur är gratis att använda och på programmets hemsida finns också
en mängd gratis ordlistor för olika språk att hämta.

Här är Excaliburs hemsida.

Några extra Excaliburtips

Excalibur ställs vanligen in så att det rättar Macens klippbord. Man
kan manuellt klippa ut texten man vill rätta, sedan starta Excalibur
och låta det arbeta. Därefter klistrar man tillbaka den rättade texten.

Man kan underlätta detta arbete genom att kombinera Excalibur med
makro-programnet KeyQuencer. Då kan processen att klippa ut, rättstava
och sedan klistra in automatiseras. Med KeyQuencer rätt inställt
behöver man bara trycka på en förvald tangent eller tangentkombination
för att aktivera rättstavningen.

Här hämtas KeyQuencer 1.2.2a som kostar 10 US$ efter en prövotid. På
samma adress hämtas också KeyQuencer Lite som kostar 20 US$. På denna
adress kan man läsa mer om den stora versionen av KeyQuencer som kostar
ca 30 US$ och som inte kan prövas först.

Olika Excalibur-inställningar

Det kan vara en fördel då man arbetar med Excalibur att ha en separat
inställning för varje språk man rättstavar. Man kan i programmet välja
till vilken ordlista de nya ord man adderar skall läggas. Dock kan det
gå snabbare att arbeta med programmet om man inte varje gång man vill
spara några nya ord behöver ta ställning till vilken ordlista de skall
sparas.

Man måste för att göra ändringarna i Excalibur använda Apples program
ResEdit, med vars hjälp man kan modifiera andra program. Det brukar
ofta utfärdas varningar för att använda ResEdit som nybörjare,
efterssom man kan riskera att göra program obrukbara, eller i värsta
fall sitt operativsystem odugligt. Generellt kan dock sägas att problem
med ResEdit undvikes genom att alltid arbeta med kopior av de program
man vill modifiera och att ge dessa kopior andra namn än orginalen.

öppna en kopia av Excalibur med ResEdit. öppna därefter resursen STR#
305 i Excalibur. Där står det Excalibur Preferences. ändra det till vad
du vill - tex "Excalibur svensk stavning" - ändra också namnet på
programmet Excalibur (kopia) till samma så att du vet vilket program
som ger upphov till vilken programinställning. Nu när du startar ditt
nya Excalibur och sedan tittar i mappen Programinställningar kommer du
att finna en ny inställning med det namn du ändrade till i STR# 305.
Enda nackdelen med detta sätt att skapa alternativa inställningar till
Excalibur är att man måste ha en kopia av programmet för varje enskild
inställning.

                            Frekvens 20070122

This README file belongs in a file archive found at
http://runeberg.org/words/frekvens-20070122.tgz

The files in this archive document word frequencies by year and
language, based on raw or proofread text from Project Runeberg's
electronic facsimile editions, as of January 22, 2007.

Project Runeberg is an archive of freely available electronic editions
of classic out-of-copyright Scandinavian literature,
http://runeberg.org/

Most of its titles consist of scanned images (electronic facsimile) and
raw text from optical character recognition (OCR) in varying degrees of
proofreading. Volunteers are welcome to help in proofreading the
scanned text.

Since the scanned images depict a particular printed edition, the
resulting text is tied to a publishing year and to a particular
orthography (details in spelling), which is not the case for electronic
texts that are not backed by scanned images.

Even if Ibsen's drama Peer Gynt was written in 1867 and first performed
in 1876, its reprint in the author's collected works in 1898 marks the
state of the Norwegian language at this latter year. This is the kind
of Norwegian spelling that people were reading in 1898. It might be the
authors' original spelling from 1867 or a modernized version of 1898,
but it can't be modernized beyond the publishing year.

The files herein are plain text, encoded in UTF-8. The file no-1880.top
contains word frequencies in Norwegian books printed in the year 1880.
The following list means that the word "og" occurred 8161 times.
8161 og
5569 i
3896 at
3616 af
3359 den

The words were extracted with hunspell 1.1.4, having the following
affix and dictionary files:
---- blank.aff ----
SET UTF-8
WORDCHARS .:-'0123456789

---- blank.dic ----
1
xyzzy

and the Unix/Linux command line:
sed 's/<[^>]*>//g' *.txt |
  hunspell -d blank -l |
  sort | uniq -c | sort -nrf

Having hyphen, period, apostrophe and digits in WORDCHARS means the
output list will contain words such as "etc.", "Dyre-",
"General-Vejmester", "3-årig" (3-year-old), "1700-talet" (18th
century), "n:o" (numero), "1:20000" (map scale), "12:50" and "23:-"
(prices). However, it also means that the period at the end of
sentences will be included with some words.

Non-proofread text with OCR errors will also appear, e.g. "wwTQft" and
"forunderJigere". This can only be improved by further proofreading.
Only using the fully proofread pages would have reduced the amount of
text too much.

The following printed and scanned volumes were used for each file.
Prefix with http://runeberg.org/

no-1880.top

norge80

no-1883.top

tekuke/1883

no-1884.top

tekuke/1884 tekuke/1884pat

no-1888.top

tekuke/1888

no-1889.top

tekuke/1889

no-1890.top

tekuke/1890

no-1891.top

tekuke/1891

no-1892.top

tekuke/1892 tekuke/1892pat

no-1893.top

tekuke/1893

no-1894.top

tekuke/1894

no-1896.top

ilnolihi/1 ilnolihi/2 ilnolihi/3 ilnolihi/4

no-1900.top

ibsen/1 ibsen/2 ibsen/3 ibsen/4 ibsen/5 ibsen/6 ibsen/7 ibsen/8 ibsen/9
ibsen/10

no-1903.top

brand

no-1905.top

ilnolih2

no-1907.top

bjorfort

no-1910.top

bjornson/1 bjornson/2 bjornson/3 bjornson/4 bjornson/5

no-1916.top

urmakeri

no-1934.top

bokogbib/1934

no-1935.top

bokogbib/1935

file

volumes
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